OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!
OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!日常聊天可能在不经意间污染个性化Agent的长期记忆,使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现,即使无恶意提示,日常对话也可能改变Agent的安全边界。
来自主题: AI技术研报
7142 点击 2026-05-23 09:57
搜索
日常聊天可能在不经意间污染个性化Agent的长期记忆,使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现,即使无恶意提示,日常对话也可能改变Agent的安全边界。